16.5 Независимость и условные распределения вероятностей

В этом параграфе описываются, пожалуй, главные фичи теории вероятностей: независимые события и условные вероятности. Эти концепции имеют большое прикладное значение, да и с теоретической точки зрения главным образом благодаря им теория вероятностей выделяется в отдельную ветвь математики.

Условная вероятность

Условная вероятность возникает при ответе на вопрос о том, каковы шансы события AA при условии,что случилось событие BB, и обозначается P(AB)\mathbb P(A\vert B).

Пример. Согласно исследованиям, в среднем 5%5\% пациентов испытывают приступы кашля в течение дня, однако среди курильщиков доля кашляющих составляет 40%40\%. То есть (безусловная) вероятность P(кашляет)=0.05\mathbb P(\text{кашляет}) = 0.05 при добавлении обусловливания может существенно измениться: P(кашляеткурит)=0.4\mathbb P(\text{кашляет}\vert\text{курит}) = 0.4.

Упражнение. Известно, что в семье два ребёнка, причём один из них мальчик. Какова вероятность, что другой ребёнок тоже мальчик?

Ответ (не открывайте сразу, попробуйте сначала решить самостоятельно)

Как ни странно, ответ вовсе не 50%50\%. Пол новорождённого ребёнка можно приближённо считать результатом испытания Бернулли с вероятностью успеха 12\frac 12.
Из четырёх возможных вариантов ММ, МД, ДМ, ДД условию удовлетворяют только первые три, и лишь в одном случае из этих трёх второй ребёнок тоже мальчик. Поэтому правильный ответ — 13\frac 13.

Добавляя формализма, обозначим

A={хотя бы один ребёнок — мальчик} A = \{\text{хотя бы один ребёнок — мальчик}\}

B={мальчики оба ребёнка}, B = \{\text{мальчики оба ребёнка}\},

и тогда условная вероятность P(BA)\mathbb P(B\vert A) вычисляется по формуле

P(BA)=P(AB)P(A)=1/43/4=13. \mathbb P(B\vert A) = \frac{\mathbb{P}(A \cap B)}{\mathbb{P}(A)} = \frac{1/4}{3/4} = \frac 13.

В общем случае условная вероятность P(BA)\mathbb P(B\vert A) при P(A)0\mathbb P(A) \ne 0 полагается равной

P(BA)=P(AB)P(A). \mathbb{P}(B \vert A) = \frac{\mathbb{P}(A \cap B)}{\mathbb{P}(A)}.

В зависимости от соотношения событий AA и BB условная вероятность P(BA)\mathbb{P}(B \vert A) может принимать разные значения, например:

  • если AB=A\cap B = \varnothing, то событие AA исключает реализацию события BB, и P(BA)=0\mathbb{P}(B \vert A) = 0;
  • если ABA \subset B, то событие AA гарантирует осуществление события BB, и P(BA)=1\mathbb{P}(B \vert A) = 1.

Разумеется, чаще всего события AA и BB соотносятся между собой более хитрым образом, и значение условной вероятности P(BA)\mathbb{P}(B \vert A) находится строго между 00 и 11.

Формула полной вероятности

Пусть пространство Ω\Omega разбивается на попарно несовместные события B1,B2,,BnB_1, B_2, \dots, B_n:

Ω=B1Bn,BiBj= при ij. \Omega = B_1 \cup \ldots \cup B_n, \quad B_i \cap B_j = \varnothing \text{ при } i\ne j.

Тогда

A=AΩ=(AB1)(ABn);A = A\cap\Omega = (A\cap B_1) \cup \ldots \cup (A\cap B_n);

отсюда по свойству конечной аддитивности находим, что

P(A)=P(AB1)++P(ABn). \mathbb P(A) = \mathbb{P}(A \cap B_1) + \ldots + \mathbb{P}(A \cap B_n).

Переходя к условным вероятностям, получаем формулу полной вероятности:

P(A)=k=1nP(ABk)P(Bk). \mathbb{P}(A) = \sum\limits_{k=1}^n \mathbb{P}(A \vert B_k) \mathbb{P}(B_k).

Пример. Среди населения 33.7%33.7\% имеют первую группу крови, 37.5%37.5\% — вторую, 20.9%20.9\% — третью, 7.9%7.9\% — четвёртую. При переливании крови надо учитывать группы крови донора и рецепиента:

  • реципиенту с четвёртой группой крови можно перелить кровь любой группы;
  • реципиентам со второй и третьей группами можно перелить кровь той же группы или первой;
  • реципиентам с первой группой крови можно перелить только кровь первой группы.

С какой вероятностью допустимо переливание в случайно взятой паре донор—реципиент?

Решение. Пусть событие AA состоит в том, что переливание возможно, а событие BkB_k — в том, что донор имеет группу kk. По формуле полной вероятности

P(A)=P(AB1)P(B1)+P(AB2)P(B2)+P(AB3)P(B3)+P(AB4)P(B4). \mathbb P(A) = \mathbb P(A\vert B_1) \mathbb P(B_1) + \mathbb P(A\vert B_2) \mathbb P(B_2) + \mathbb P(A\vert B_3) \mathbb P(B_3) + \mathbb P(A\vert B_4) \mathbb P(B_4).

Вероятности P(Bk)\mathbb P(B_k) даны в условии, оттуда же находим, что

P(AB1)=1, \mathbb P(A\vert B_1) = 1,

P(AB2)=P(B2)+P(B4), \mathbb P(A\vert B_2) = \mathbb P(B_2) + \mathbb P(B_4),

P(AB3)=P(B3)+P(B4), P(A\vert B_3) = \mathbb P(B_3) + \mathbb P(B_4),

P(AB4)=P(B4). \mathbb P(A\vert B_4) = \mathbb P(B_4).

Подставляя численные значения, получаем

P(A)=0.337+(0.375+0.079)0.375+(0.209+0.079)0.209+0.0792=0.573683. \mathbb P(A) = 0.337 + (0.375+0.079)\cdot 0.375 + (0.209+0.079)\cdot 0.209 + 0.079^2 = 0.573683.

Упражнение. Решите предыдущий пример, выбирая в качестве разбиения набор событий CkC_k, каждое из которых заключается в том, что реципиент имеет группу kk.

Ответ

По той же формуле полной вероятности получаем, что

P(A)=P(AС1)P(С1)+P(AС2)P(С2)+P(AС3)P(С3)+P(AС4)P(С4). \mathbb P(A) = \mathbb P(A\vert С_1) \mathbb P(С_1) + \mathbb P(A\vert С_2) \mathbb P(С_2) + \mathbb P(A\vert С_3) \mathbb P(С_3) + \mathbb P(A\vert С_4) \mathbb P(С_4).

Ясно, что P(Ck)=P(Bk)\mathbb P(C_k) = \mathbb P(B_k); далее из условия находим, что

P(AС1)=P(C1), \mathbb P(A\vert С_1) = \mathbb P(C_1),

P(AC2)=P(C1)+P(C2), \mathbb P(A\vert C_2) = \mathbb P(C_1) + \mathbb P(C_2),

P(AC3)=P(C1)+P(C3), P(A\vert C_3) = \mathbb P(C_1) + \mathbb P(C_3),

P(AC4)=1. \mathbb P(A\vert C_4) = 1.

Подставляя численные значения, получаем тот же ответ P(A)=0.573683\mathbb P(A) = 0.573683.

Формула полной вероятности легко обобщается на случай счётного числа попарно несовместных событий BkB_k, а также на случай обусловливания по некоторому событию CC, например:

P(AC)=nP(ABn,C)P(BnC). \mathbb{P}(A\vert C) = \sum\limits_n \mathbb{P}(A \vert B_n, C) \mathbb{P}(B_n \vert C).

Формула Байеса

Заметим, что вероятность P(AB)\mathbb{P}(A \cap B) можно записать двумя способами

P(BA)P(A)=P(AB)=P(AB)P(B). \mathbb{P}(B \vert A)\mathbb{P}(A) = \mathbb{P}(A \cap B) = \mathbb{P}(A \vert B)\mathbb{P}(B).

Оставим P(BA)\mathbb{P}(B \vert A) в левой части и получим формулу Байеса.

Формула Байеса. Для любых событий AA, BB c положительной вероятностью

P(BA)=P(AB)P(B)P(A). \mathbb{P}(B \vert A) = \frac{\mathbb{P}(A \vert B)\mathbb{P}(B)}{\mathbb{P}(A)}.

Для вычисления знаменателя в формуле Байеса часто используется формула полной вероятности.

Упражнение. Среди определенной группы людей вероятность некоторой болезни 0.02. Тест, позволяющий выявить болезнь, несовершенен. На больном он дает позитивный результат в 98 случаях из 100, и, кроме того, он дает позитивный результат в 4 случаях из 100 на здоровом. Найдите вероятность того, что человек, на котором тест дал положительный результат, действительно болен.

Ответ (не открывайте сразу, попробуйте сначала решить самостоятельно)

По формуле Байеса,

P(болен+)=P(+болен)P(болен)P(+). \mathbb{P}(\text{болен}\vert\text{+}) = \frac{\mathbb{P}(\text{+}\vert\text{болен}) \mathbb{P}(\text{болен})}{\mathbb{P}(\text{+})}.

По условию, P(+болен)=0.98\mathbb{P}(\text{+} \vert \text{болен}) = 0.98, P(болен)=0.02\mathbb{P}(\text{болен}) = 0.02. Чтобы посчитать вероятность теста быть положительньным, применим формулу полной вероятности:

P(+)=P(+болен)P(болен)+P(+здоров)P(здоров)=0.980.02+0.040.98=0.980.06. \mathbb{P}(\text{+}) = \mathbb{P}(\text{+} \vert \text{болен}) \mathbb{P}(\text{болен}) + \mathbb{P}(\text{+} \vert \text{здоров})\mathbb{P}(\text{здоров}) = 0.98 \cdot 0.02 + 0.04 \cdot 0.98 = 0.98 \cdot 0.06.

Тогда по формуле Байеса

P(болен+)=0.980.020.980.06=13. \mathbb{P}(\text{болен} \vert \text{+}) = \frac{0.98 \cdot 0.02}{0.98 \cdot 0.06} = \frac13.

Получается, что точность теста очень низка — всего лишь около 1 из 3. Это происходит, потому что больные люди встречаются редко (2 из 100), и эта частота сравнима с долей ошибок I и II рода — 0.02 и 0.04.

Для непрерывного случая тоже есть своя формула полной вероятности, см. раздел про условную вероятность.

Независимые события

События AA и BB называются независимыми, если
P(AB)=P(A)\mathbb{P}(A \vert B) = \mathbb{P}(A), то есть информация о реализации события BB никак не влияет на вероятность события AA.

По определению условной вероятности независимость событий AA и BB эквивалентна тому, что

P(AB)=P(A)P(B). \mathbb{P}(A \cap B) = \mathbb{P}(A) \mathbb{P}(B).

Последнее равенство годится для определения независмости событий AA и BB даже в том случае, если P(A)=0\mathbb{P}(A) = 0 или P(B)=0\mathbb{P}(B) = 0.

Пример. В полной колоде карт находится 5252 карты: 44 масти от двойки до туза. Вероятность вытащить туза равна P(Ace)=452=113\mathbb P(\mathrm{Ace}) = \frac 4{52} = \frac 1{13}, карту пиковой масти — P()=1352=14\mathbb P(\spadesuit) = \frac {13}{52} = \frac 1{4}. Эти события независимы, поскольку в пересечении этих событий лежит ровно одна карта — туз пик, вероятность появления которого равна 152=11314=P(Ace)P()\frac 1{52} = \frac 1{13} \cdot \frac 14 = \mathbb P(\mathrm{Ace})\mathbb P(\spadesuit).

Пусть теперь вытаскивается сразу две карты. Зависимы ли события «вытащены две карты пиковой масти» и «вытащены туз и король»? Посчитаем:

P()=(132)(522)=13125251=117, \mathbb P(\spadesuit \spadesuit) = \frac{\binom{13}2}{\binom{52}2} = \frac{13\cdot 12}{52\cdot 51} = \frac 1{17},

P(AK)=16(522)=325251=8663. \mathbb P(\mathrm{AK}) = \frac{16}{\binom{52}2} = \frac{32}{52\cdot 51} = \frac 8{663}.

Вероятность вытащить туза и короля пик равна 1(522)=113260.00075\frac 1{\binom{52}2} = \frac 1{1326}\approx 0.00075, что отличается от P()P(AK)=8112710.00071\mathbb P(\spadesuit \spadesuit)\mathbb P(\mathrm{AK}) = \frac 8{11271} \approx 0.00071. Таким образом, эти события зависимы.

События A1,,AnA_1, \ldots, A_n попарно независимы, если P(AiAj)=P(Ai)P(Aj)\mathbb{P}(A_i \cap A_j) = \mathbb{P}(A_i) \mathbb{P}(A_j) при iji \ne j. Эти же события независимы в совокупности, если

P(Ai1Aim)=k=1mP(Aik) \mathbb P\big(A_{i_1}\cap \ldots \cap A_{i_m}\big) = \prod\limits_{k=1}^m \mathbb P(A_{i_k})

 для любого набора индексов 1i1<<imn. \text{ для любого набора индексов } 1\leqslant i_1 < \ldots < i_m\leqslant n.

Упражнение. Приведите пример попарно независимых событий A1A_1, A2A_2, A3A_3, не являющихся независимыми в совокупности.

Ответ (не открывайте сразу, попробуйте сначала решить самостоятельно)

Раскрасим тетраэдр в три цвета следующим образом: одна грань красная (R), вторая — зелёная (G), третья — синяя (B), а четвёртая содержит все три цвета. События RR, GG, BB состоят в том, что при случайном броске на нижней грани тетраэдра есть соответствующий цвет.
Тогда

P(R)=P(G)=P(B)=12, \mathbb P(R) = \mathbb P(G) = \mathbb P(B) = \frac 12,

P(RG)=P(RB)=P(GB)=14, \mathbb P(R \cap G) = \mathbb P(R \cap B) = \mathbb P(G\cap B) = \frac 14,

что влечёт попарную независимость событий RR, GG, BB. Однако P(RGB)=14\mathbb P(R \cap G \cap B) = \frac 14, что не равно P(R)P(G)P(B)=18\mathbb P(R)\mathbb P(G)\mathbb P(B) = \frac 18, поэтому эти события не являются независимыми совокупности.

Определение независимости случайных величин из предыдущего параграфа полностью согласуется с только что введённым определением независимых событий. Например, для случая дискретных случайных величин ξ\xi и η\eta обозначим

Ai=P(ξ=xi),Bj=P(η=yj); A_i = \mathbb P(\xi = x_i), \quad B_j = \mathbb P(\eta = y_j);

тогда P(ξ=xi,η=yj)=P(AiBj)\mathbb P(\xi = x_i, \eta = y_j) = \mathbb P(A_i \cap B_j), и поэтому независимость случайных величин ξ\xi и η\eta эквивалентна независимости событий AiA_i и BjB_j для всевозможных значений ii и jj.

Замечание о статистической независимости

Математический термин «независимость» подразумевает статистическую (или стохастическую) независимость, которая может не вполне совпадать по смыслу с интуитивным значением этого термина. Например, если вы два раза подкидываете симметричную монетку, то статистически результат первого броска никак не влияет на результат второго броска. Но так ли это с философской точки зрения? Вот представим две ситуации:

  1. вы бросили монетку, быстро подняли с пола, и снова бросили;

  2. монетка при первом броске укатилась далеко под диван, и вы полчаса ворочали мебель, прежде чем произвести второе испытание.

Весьма вероятно, что столь досадное происшествие после первого броска могло существенно повлиять на ваше физическое и моральное состояние. И уж точно второй бросок в ситуациях (1) и (2) вы бы совершили совершенно по-разному, что вполне могло отразиться на его результате.

Однако в математике подобным метафизическим измышлениям нет места. С абстрактным понятием независимости гораздо проще работать, поскольку оно игнорирует замысловатые причинно-следственные связи и прочие несущественные детали. В модели независимых испытаний Бернулли каждое следующее испытание статистически никак не зависит от предыдущих. Что бы с вами не происходило, шансы во втором броске — 50 на 50, именно об этом говорит нам независимость испытаний Бернулли с вероятностью успеха 12\frac 12, не больше и не меньше.

Условная независимость

Бывает так, что зависимые события AA и BB становятся независимыми при выполнении некоторого третьего события CC. Более формально, события AA и BB условно независимы по отношению к событию CC, если P(C)>0\mathbb P(C) > 0 и

P(AB,C)=P(AC). \mathbb P(A \vert B, C) = \mathbb P(A\vert C).

Поскольку

P(AB,C)=P(ABC)P(BC),P(AC)=P(AC)P(C), \mathbb P(A \vert B, C) = \frac{\mathbb P(A \cap B \cap C)}{\mathbb P(B \cap C)}, \quad \mathbb P(A \vert C) = \frac{\mathbb P(A \cap C)}{\mathbb P(C)},

то условная независимость событий AA и BB эквивалетна равенству

P(ABC)P(C)=P(AC)P(C)P(BC)P(C), \frac{\mathbb P(A \cap B \cap C)}{\mathbb P(C)} = \frac{\mathbb P(A \cap C)}{\mathbb P(C)} \cdot \frac{\mathbb P(B \cap C)}{\mathbb P(C)},

а это, в свою очередь, означает, что

P(ABC)=P(AC)P(BC). \mathbb P(A \cap B\vert C) = \mathbb P(A\vert C) \mathbb P(B\vert C).

Таким образом, вероятность произведения условно независимых событий равна произведению условных вероятностей. Эта формула полностью аналогична формуле P(AB)=P(A)P(B)\mathbb P(A\cap B) = \mathbb P(A)\mathbb P(B) для (безусловно) независимых событий.

Пример (цепь Маркова). Последовательность событий S0,S1,S2,,St,S_0, S_1, S_2, \ldots, S_t, \ldots называется марковской цепью, если выполняется марковское свойство

P(St+1St,St1,,S0)=P(St+1St),tN{0}.\mathbb P (S_{t+1} \vert S_t, S_{t-1}, \ldots, S_0) = \mathbb P(S_{t+1} \vert S_t), \quad t \in \mathbb N \cup \{0\}.

В марковском свойстве заложен следующий смысл: в каждый момент времени tt «будущее» St+1S_{t+1} зависит только от «настоящего» StS_t, но не зависит от «прошлого»

Pt=St1S0.P_t = S_{t-1} \cap \ldots \cap S_0.

Итак, цепь Маркова характеризуется равенством P(St+1Pt,St)=P(St+1St)\mathbb P(S_{t+1} \vert P_t, S_t) = \mathbb P(S_{t+1} \vert S_t), которое означает, что события St+1S_{t+1} и PtP_t условно независимы по отношению к событию StS_t.

Условные распределения

Пусть ξ\xi и η\eta — дискретные случайные величины и P(η=y)>0\mathbb P(\eta = y) > 0. По аналогии с условными вероятностями условное распределение случайной величины ξ\xi при условии, что значение случайной величины η\eta равно yy, определяется по формуле

P(ξ=xiη=y)=P(ξ=xi,η=y)P(η=y). \mathbb P(\xi = x_i \vert \eta = y) = \frac{\mathbb P(\xi = x_i , \eta = y)}{\mathbb P(\eta = y)}.

Это действительно распределение вероятностей, поскольку P(ξ=xiη=y)0\mathbb P(\xi = x_i \vert \eta = y) \geqslant 0 и

iP(ξ=xiη=y)=1P(η=y)iP(ξ=xi,η=y)=1.\sum\limits_{i}\mathbb P(\xi = x_i \vert \eta = y) = \frac 1{\mathbb P(\eta = y)} \sum\limits_{i}\mathbb P(\xi = x_i , \eta = y) = 1.

В непрерывном случае условное распределение задаётся условной плотностью

pξη(xy)=p(x,y)pη(y), p_{\xi\vert \eta}(x\vert y) = \frac{p(x, y)}{p_\eta(y)},

где p(x,y)p(x, y) — совместная плотность случайных величин ξ\xi и η\eta. И снова проведением маргинализации по xx убеждаемся в том, что с нормировкой всё в порядке:

+pξη(xy)dx=1pη(y)+p(x,y)dx=pη(y)pη(y)=1. \int\limits_{-\infty}^{+\infty} p_{\xi\vert \eta}(x\vert y)\,dx = \frac 1{p_\eta(y)}\int\limits_{-\infty}^{+\infty} p(x, y)\,dx = \frac {p_\eta(y)}{p_\eta(y)} = 1.

Поскольку +p(x,y)dy=pξ(x)\int\limits_{-\infty}^{+\infty} p(x, y)\,dy = p_\xi(x), из формулы условной плотности получаем непрерывный аналог формулы полной вероятности:

pξ(x)=Rpξη(xy)pη(y)dy. p_\xi(x) = \int\limits_{\mathbb{R}} p_{\xi \mid \eta}(x\vert y) p_\eta(y) dy.

Пример. Выберем случайное число x[12,1]x\in \big[\tfrac12, 1\big], а затем — случайное число y[0,x]y \in [0, x]. Как распределена случайная величина yy?

Переформулируем задачу: известно, что ξU[12,1]\xi \sim U\big[\tfrac12, 1\big] и ηξU[0,x]\eta \vert \xi \sim U[0, x]. Требуется найти плотность случайной величины η\eta. Имеем

pξ(x)=2I[12,1](x),pηξ(yx)=1xI[0,x](y). p_\xi(x) = 2\mathbb I_{\big[\tfrac12, 1\big]}(x), \quad p_{\eta\mid\xi}(y\vert x) = \frac 1x\mathbb I_{[0, x]}(y).

Применяя формулу полной вероятности, находим

pη(y)=1/212xI[yx]dx={2ln2,0y<12,2lny,12y1. p_\eta(y) = \int\limits_{1/2}^1 \frac 2x \mathbb I[y \leqslant x]\, dx = \begin{cases} 2 \ln2, & 0 \leqslant y < \tfrac12, \\ -2 \ln{y}, & \tfrac12 \leqslant y \leqslant 1. \end{cases}

Упражнение. Пусть случайные величины ξkExp(λk)\xi_k \sim \mathrm{Exp}(\lambda_k), k=1,,nk=1, \ldots, n, независимы в совокупности. Чему равна вероятность P(ξk=min{ξ1,,ξn})\mathbb P\big(\xi_k = \min \{\xi_1, \ldots, \xi_n \}\big)?


Ответ (не открывайте сразу, попробуйте сначала решить самостоятельно)

Обозначим η=argmin1kn{ξk}\eta = \operatorname*{argmin}\limits_{1\leqslant k \leqslant n} \{\xi_k\}. Требуется найти P(η=k)\mathbb P(\eta = k). По формуле полной вероятности имеем

P(η=k)=0+pηξk(η=kx)pξk(x)dx.\mathbb P(\eta = k) = \int\limits_0^{+\infty} p_{\eta\vert \xi_k}(\eta = k \vert x) p_{\xi_k}(x)\,dx.

Далее, pξk(x)=λkeλkxp_{\xi_k}(x) = \lambda_k e^{-\lambda_k x}, x0x\geqslant 0,

pηξk(η=kx)=P(ξi>x,ik)=ikeλix. p_{\eta\vert \xi_k}(\eta = k \vert x) = \mathbb P(\xi_i > x, i \ne k) = \prod\limits_{i\ne k} e^{-\lambda_i x}.

Таким образом,

P(η=k)=0+λkeλkxikeλixdx=λk0+exp(i=1nλix)dx=λkλ1++λn.\mathbb P(\eta = k) = \int\limits_0^{+\infty} \lambda_k e^{-\lambda_k x}\prod\limits_{i\ne k} e^{-\lambda_i x} \, dx = \lambda_k \int\limits_0^{+\infty} \exp\Big(-\sum\limits_{i=1}^n \lambda_i x\Big)\,dx= \frac{\lambda_k}{\lambda_1 + \ldots + \lambda_n}.

Условные распределения случайных векторов определяется аналогично с поправкой на возросшее число аргументов: в этом случае xx и yy уже не числа, а вектора тех же размерностей, что и сами случайные вектора.

Условные математические ожидания

Условное математическое ожидание E(ξη=y)\mathbb E(\xi\vert\eta = y) отвечает на вопрос «чему равно среднее значение случайной величины ξ\xi при условии, что η=y\eta = y?».
Имея в распоряжении матрицу условного дискретного распределения P(ξ=xiη=yj)\mathbb P(\xi = x_i\vert \eta = y_j) или условную плотность pξη(xy)p_{\xi\vert \eta}(x\vert y), условное математическое ожидание можно вычислить следующим образом:

  • E(ξη)E(ξη=y)=ixiP(ξ=xiη=y)\mathbb E(\xi\vert\eta)\equiv \mathbb E(\xi\vert\eta=y) = \sum\limits_i x_i \mathbb P(\xi = x_i\vert \eta = y) в дискретном случае;
  • E(ξη)E(ξη=y)=Rxpξη(xy)dx\mathbb E(\xi\vert\eta) \equiv \mathbb E(\xi\vert\eta=y) = \int\limits_{\mathbb R} x p_{\xi\vert \eta}(x\vert y)\,dx для непрерывных ξ\xi и η\eta.

Важно отметить, что после суммирования или интегрирования по переменной xx в формуле условного математического ожидания остаются зависимость от yy. Таким образом, в отличие от обычного среднего, которое является просто числом, условное ожидание представляет собой случайную величину ζ=E(ξη=y)\zeta = \mathbb E(\xi\vert\eta=y), поскольку его значение зависит от случайного значения η=y\eta = y.

Свойства условного математического ожидания

  1. E(aξ1+bξ2η)=aE(ξ1η)+bE(ξ2η)\mathbb E(a\xi_1 + b \xi_2 \vert \eta) = a\mathbb E (\xi_1\vert \eta) + b \mathbb E (\xi_2 \vert\eta) (линейность).

  2. Если ξ1ξ2\xi_1 \leqslant \xi_2, то E(ξ1η)E(ξ2η)\mathbb E (\xi_1\vert \eta) \leqslant \mathbb E (\xi_2\vert \eta) (монотонность).

  3. Если случайные величины ξ\xi и η\eta независимы, то E(ξη)=Eξ\mathbb E(\xi\vert\eta) = \mathbb E\xi.

  4. E(g(η)ξη)=g(η)E(ξη)\mathbb E(g(\eta) \xi\vert\eta) = g(\eta) \mathbb E(\xi\vert \eta).

  5. E(E(ξη))=Eξ\mathbb E\big(\mathbb E(\xi\vert \eta)\big) = \mathbb E\xi (law of total expectation).

Упражнение. Prove the law of total expectation.

Ответ (не открывайте сразу, попробуйте сначала решить самостоятельно)

Пусть ζ=E(ξη)\zeta = \mathbb E(\xi \vert \eta). Начнём с дискретного случая:

Eζ=jE(ξη=yj)P(η=yj)=jixiP(ξ=xiη=yj)P(η=yj)= \mathbb E\zeta = \sum\limits_j \mathbb E(\xi\vert\eta = y_j)\mathbb P(\eta = y_j) = \sum\limits_j\sum\limits_i x_i \mathbb P(\xi = x_i\vert \eta = y_j)\mathbb P(\eta = y_j)=

=ixijP(ξ=xi,η=yj)=ixiP(ξ=xi)=Eξ. =\sum\limits_i x_i \sum\limits_j\mathbb P(\xi = x_i, \eta = y_j) =\sum\limits_i x_i \mathbb P(\xi = x_i) = \mathbb E\xi.

В непрерывном случае вместо сумм потребуется переставить местами интегралы. Это позволяет сделать теорема Фубини о сведении двойного интеграла к повторному:

Eζ=+E(ξη=y)pη(y)dy=+pη(y)dy+xpξη(xy)dx= \mathbb E\zeta = \int\limits_{-\infty}^{+\infty}\mathbb E(\xi\vert\eta = y) p_\eta(y)\,dy = \int\limits_{-\infty}^{+\infty} p_\eta(y)\,dy \int\limits_{-\infty}^{+\infty}x p_{\xi\vert\eta}(x\vert y)\,dx =

=+xdx+p(x,y)dy=+xpξ(x)dx=Eξ. = \int\limits_{-\infty}^{+\infty} x\,dx \int\limits_{-\infty}^{+\infty} p(x, y)\,dy = \int\limits_{-\infty}^{+\infty} xp_\xi(x) \,dx = \mathbb E\xi.

Условная дисперсия определяется по формуле

V(ξη)=E((ξE(ξη))2η)=E(ξ2η)(E(ξη))2. \mathbb V(\xi \vert \eta) = \mathbb E\big((\xi - \mathbb E(\xi\vert \eta))^2 \vert \eta\big) = \mathbb E(\xi^2 \vert \eta) - \big(\mathbb E(\xi \vert \eta))^2.

Справедливо равенство Vξ=E(V(ξη))+V(E(ξη))\mathbb V \xi = \mathbb E\big(\mathbb V(\xi\vert \eta)\big) + \mathbb V\big(\mathbb E(\xi\vert \eta)\big) (law of total variance).

Регрессия

В машинном обучении часто встречается задача регрессии, в которой требуется восстановить зависимость Y=f(X)Y = f(X) при наличии выборки

(X1,Y1),,(Xn,Yn) (X_1, Y_1), \ldots, (X_n, Y_n)

из некоторого неизвестного распределения с совместной плотностью p(x,y)p(x, y). Стандартный способ решения задачи регресии — минимизация среднего значения функции потерь L(Y,f(X))\mathcal L(Y, f(X)):

E[L(Y,f(X))]=R2L(y,f(x))p(x,y)dxdymin. \mathbb E \big[\mathcal L(Y, f(X))\big] = \iint\limits_{\mathbb R^2} \mathcal L(y, f(x)) p(x, y) \,dxdy \to \min.

В качестве функции потерь на одном объекте (x,y)(x, y) в задаче регрессии обычно выбирают квадратичную функцию: L(y,f(x))=(yf(x))2\mathcal L(y, f(x)) = (y-f(x))^2. Тогда

E[L(Y,f(X))]=R2(yf(x))2p(x,y)dxdy; \mathbb E \big[\mathcal L(Y, f(X))\big] = \iint\limits_{\mathbb R^2} \mathcal (y-f(x))^2 p(x, y) \,dxdy;

для минимизации этого функционала применим немножко вариационного исчисления и продифференцируем по функции f(x)f(x). Получим

2R2(f(x)y)p(x,y)dxdy=0,2\iint\limits_{\mathbb R^2} (f(x)-y) p(x, y) \,dxdy = 0,

откуда

f(x)=1p(x)+yp(x,y)dy=+ypYX(yx)dy=E(YX=x). f(x) = \frac 1{p(x)} \int\limits_{-\infty}^{+\infty} yp(x, y)\,dy = \int\limits_{-\infty}^{+\infty} yp_{Y\vert X}(y \vert x)\,dy = \mathbb E(Y\vert X = x).

Полученное условное математическое ожидание, называемое функцией регрессии, показывает, чему в среднем равно значение зависимой переменной YY при условии, что X=xX=x.

Чтобы добавить в заметки выделенный текст, нажмите Command + E

Пройдите квиз по параграфу

Чтобы закрепить пройденный материал
Предыдущий параграф16.4. Многомерные распределения
Следующий параграф16.6. Параметрические оценки

Вступайте в сообщество хендбука

Здесь можно найти единомышленников, экспертов и просто интересных собеседников. А ещё — получить помощь или поделиться знаниями.